标签【[离线计算-Spark|Hive]】

Spark on Yarn详解

Spark 可以跑在很多集群上，比如跑在local上，跑在Standalone上，跑在Apache Mesos上，跑在Hadoop YARN上等等。不管你Spark跑在什么上面，它的代码都是一样的，区 ...

Spark Web UI 监控详解

Spark集群环境配置我们有2个节点，每个节点是一个worker，每个worker上启动一个Executor，其中Driver也跑在master上。每个Executor可使用的核数为2，可用的内存 ...

Spark原理及关键技术点

Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop ...

Antlr4 语法解析器(下)

Antlr4 的两种AST遍历方式：Visitor方式和 Listener方式。 Antlr4规则文法: 注释：和Java的注释完全一致，也可参考C的注释，只是增加了JavaDoc类型的注 ...

Antlr4 语法解析生成器(上)

简介 Spark SQL、Presto --> Antlr4 SQL 解析器 Flink SQL --> Apache Calcite(通过JavaCC 实现) Spark SQL如 ...

数据湖-Apache Hudi

Hudi特性数据湖处理非结构化数据、日志数据、结构化数据支持较快upsert/delete, 可插入索引 Table Schema 小文件管理Compaction ...